1. 特征提取
    文本类型—_>数值
    类型—_>数值
    字典特征提取：DictVectorizer，字典转换成数值
                 transfer是转换器的父类

2. 归一化
    将原始数据映射到一定区间内(0,1)
    鲁棒性较差

3. 特征降维
    降低特征个数
    过滤式
        方差选择法：低方差特征过滤——方差低的特征间相似度高，可以去掉部分
        相关系数：特征与特征之间的相关程度
            皮尔逊相关系数
    嵌入式
        决策树
        正则化
        深度学习
